国内大模型竞争加剧!百川智能「Baichuan4」全网首测,以总分80.64刷新SuperCLUE中文基准
本测评结果仅用于学术研究。
据悉,百川智能于5月22日正式发布Baichuan4。SuperCLUE团队于5月19日受百川智能官方邀请,对Baichuan4在SuperCLUE通用大模型综合性中文测评基准上,进行了全方位综合性测评。
https://www.baichuan-ai.com/(已官方更新为准)
测评环境
评测模型:Baichuan4(官方于5月19日提供的内测API版本)
评测集:SuperCLUE综合性测评基准4月评测集,2194道多轮简答题,包括计算、逻辑推理、代码、长文本在内的基础十大任务。
模型GenerationConfig配置:
temperature=0.3
repetition_penalty=1.05
top_p=0.85
max_new_tokens=2048
stream=false
本次测评为自动化评测,具体评测方案可点击查阅SuperCLUE综合性测评标准。本次测评经过人工抽样校验。
理科表现:在理科领域,Baichuan4虽然以国内最佳成绩领先,但与GPT-4-Turbo-0125相比还有4.23分的差距,显示出进一步优化的空间。
文科表现:在文科任务中,Baichuan4以83.13分的高分不仅领先国内,也是国际上的最高分,比GPT-4-Turbo-0125高出5.33分,验证了其在文科领域的卓越能力。
Baichuan4在多个领域展示了其均衡的能力,特别是在知识百科、长文本理解、工具使用、语义理解和创意生成等方面处于领先地位。这使得Baichuan4非常适合应用于知识运用、智能体、内容创作和长程对话等多种场景。然而,它在代码能力方面仍有提升的潜力。
对比模型数据来源:SuperCLUE, 2024年4月30日
注:对比模型数据均来源于SuperCLUE,Baichuan4为5月19日测试结果,SenseChat V5和Yi-Large取自2024年5月11日,其余所有模型取自2024年4月30日。由于部分模型分数较为接近,为了减少问题波动对排名的影响,本次测评将相距0.25分区间的模型定义为并列,以上排序不代表实际排名。
在SuperCLUE通用综合测评基准上,Baichuan4取得80.64分,表现出色,刷新了国内大模型的最好成绩。并且,Baichuan4在中文综合能力上较GPT-4-Turbo-0125高1.51分。
Baichuan4在理科任务上的表现
Baichuan4在理科任务上表现不俗,取得76.90分,国内模型中排名第一,略高于SenseChat V5,较GPT-4-Turbo-0125低4.23分,还有一定提升空间。其中,逻辑推理(74.4)、工具使用(80.8)均刷新国内最好成绩;在代码能力上还有一定优化空间。
Baichuan4在文科任务上的表现
将Baichuan4与国内大模型平均得分对比,我们可以发现,Baichuan4在所有能力上均高于平均线,展现出较均衡的综合能力。尤其在逻辑推理(+18.64)、代码(+18.89)、长文本(+20.77)能力上远高出平均线15分以上。
Baichuan4与国外代表模型对比
Baichuan4与Baichuan3对比
将Baichuan4与Baichuan3对比,Baichuan4在绝大部分能力上有一定提升。其中,计算(+5)、逻辑推理(+5.8)、逻辑推理(+5.8)、工具使用(+6.4)、知识百科(+7.8)、长文本(+16.2)、角色扮演(+5.2)、语义理解(+7.2)、生成创作(+12.0)、传统安全(+9.8)任务上均有超过5分的提升。在代码能力上有2.2分的下降,是后续可以优化的方向之一。
小结:
示例3:知识百科
测评局限性
1.随着国内外大模型的技术和应用进展,当前通用测评中的任务维度还存在继续优化空间。
2.自动化评估方式,虽然已经与人类评估有较高一致性,但仍然存在一定波动,需要继续提升量化模型性能的方法。
3.在目前的评估框架中,我们主要关注大模型效果表现,未能探讨其核心技术的来源和质量。未来,会持续尝试多种方式并探索深层次的大模型测评方法。
更多Baichuan4模型的测评信息,请加入SuperCLUE Baichuan4交流群。
扩展阅读
[1] SuperCLUE在线完整4月报告地址(可下载):
www.cluebenchmarks.com/superclue_2404
[2] CLUE官网:www.CLUEBenchmarks.com
[3] SuperCLUE排行榜网站:www.superclueai.com
[4] Github地址:https://github.com/CLUEbenchmark/SuperCLUE